estat_sia_sih_agrot_corr


Indicadores


Medidas descritivas
agr Mínimo 1o Quartil Mediana Média 3o Quartil Máximo Desvio Padrão
agrmenld14a20 0 80 109 169.85 190.5 3937 251.06
agrmenlq14a20 0 214 312 462.51 566.0 5344 507.81
agrmenvmp14a20 0 1 10 46.84 46.0 2382 142.14
agrmaiguvmp14a20 0 0 0 10.26 6.5 225 24.99

Medidas descritivas
type Mínimo 1o Quartil Mediana Média 3o Quartil Máximo Desvio Padrão
agrindic1 -0.50 0.18 0.24 0.21 0.28 0.50 0.15
agrindic2 0.00 0.53 0.58 0.62 0.68 1.51 0.20
agrindic2_scaled -3.14 -0.44 -0.19 0.00 0.32 4.55 1.00
indicador -483.84 -253.99 -149.65 0.00 108.55 4844.87 512.97
indicador_scaled -0.94 -0.50 -0.29 0.00 0.21 9.44 1.00

Pesos (os indicadores propostos por Humberto possuem pesos dinâmicos, variando dependendo do número/quantidade de registros. Bem interessante):

agrmenld14a20 agrmenlq14a20 agrmenvmp14a20 agrmaiguvmp14a20
Primeiro autovetor (pesos) 0.16021136889 0.987077983839 0.002477639441 -0.001797888356
Indicador 1 -0.5/qt_registros -0.7/qt_registros 1.2/qt_registros 1.3/qt_registros
Indicador 2 0.07/qt_registros 0.71/qt_registros 1.43/qt_registros 2.14/qt_registros

Variância explicada por cada componente principal:

[1] 0.770 0.173 0.056 0.001

Com os quatro componentes principais explicamos 100% da variabilidade presente/gerada pelas quatro medidas. Apenas com o primeiro componente principal conseguimos explicar 77% dessa variabilidade.


anomalia_neoplasia_08a18

Em termos visuais, como base nos mapas, não vemos uma relação forte ou clara entre as prevalências de neoplasias e de anomalias. Com base nos gráficos de dispersão e cálculos de correlação linear de Pearson, não temos evidências de associação entre as prevalências de anomalias com as de neoplasias. Consequentemente, quando ajustarmos os modelos espaciais as prevalências de anomalias muito provavelmente terão efeito não significativo nas prevailências de neoplasias.

SIH, Período: 2008 : 2018


Queremos testar a associação entre as prevalências de neoplasias e anomalias, mas levando em consideração o efeito/dependência espacial (se existir). Tal tarefa é performada via um modelo linear espacial, também chamado de regressão (linear) espacial. Com um modelo desses somos capazes de quantificar a associação da prevalência de anomalias com a de neoplasias (em outras palavras, explicar a prevalência de neoplasias em termos da prevalência de anomalias), ao mesmo tempo que acomodamos a dependência/efeito espacial.

Além de não sabermos se esse efeito espacial realmente existe, temos ainda que “adivinhar” como a correlação espacial se dá. Para isso, usamos diferentes modelos i.e., diferentes tipos de correlação no espaço (figura abaixo). O primeiro modelo, um modelo Gaussiano/Normal i.i.d. (independente e identicamente distribuído) é o modelo mais simples, podendo ser chamado de baseline. Tal modelo basicamente não tem efeito espacial (é uma regressão/modelo linear simples), então podemos comparar os demais modelos (com efeito espacial) em relação a ele, o que vai nos dizer se o efeito espacial é realmente presente/significativo, e qual modelo melhor capta tal efeito/correlação.

As prevalências de neoplasias variam de 0 até 55, um range grande de variação e principalmente, com a imensa maioria dos municípios tendo prevalências entre 10 e 30. Isso somado ao fato de estarmos modelando a média, faz com que todos os modelos estimem prevalências no intervalo 10:30. Nos mapas acima, na escala das prevalências observadas, é praticamente impossível distinguir os municípios. Abaixo temos os mesmos mapas mas permitindo que cada um varie de acordo com seu próprio range.

Vemos que o melhor ajuste é obtido com o modelo BYM. O padrão de cores obtido é basicamente o mesmo dos dados, o ponto é que os valores de prevalência estão errados. Como conclusão, basicamente, podemos dizer que tal modelo funciona muito bem pra discriminar, isto é, quais municipíos possuem prevalências menores, maiores, na média. Contudo, se quisermos prever ou estimar a prevalência do munícipio, o modelo erra.

Abaixo temos a distribuição do efeito das prevaiências de anomalias, obtidas no modelo Gaussiano IID. Vemos que mesmo num modelo sem efeito espacial as anomalias não são significativas (efeito médio/estimado em 0.018).

mean sd 0.025quant 0.5quant 0.975quant mode kld
(Intercept) 19.183 1.294 16.642 19.183 21.722 19.183 0
a_sih 0.018 0.042 -0.065 0.018 0.101 0.018 0

Para contornar a situação aplicamos uma transformação nas prevalências, para reduzir a variabilidade. Como não temos prevalências zero ou negativas, aplicamos a transformação logaritmica. Os mapas resultantes são apresentados logo abaixo.

Pelos mapas podemos ver que o modelo Gaussiano IID sem efeito espacial performa bem, o que nos faz duvidar da necessidade de um efeito/correlação espacial, dado que somos capazes de capturar o padrão de (log) neoplasias apenas com as prevalências de anomalias. Visualmente os melhores resultados (ótimos resultados) são obtidos com os modelos Gaussiano IID, BYM, e BYM2. Com base nas medidas abaixo vemos que o melhor modelo é o BYM2, com ambos os modelos BYM sendo substancialmente melhores que o modelo sem efeito espacial.

Model DIC WAIC CPO MLIK
Modelo Gaussiano IID -1872.100 -2060.656 -634.6103 -399.792
Modelo ICAR 686.165 686.041 298.0592 -663.465
Modelo CAR Próprio 686.298 685.505 298.0298 -378.230
Modelo BYM -2285.460 -2367.373 -826.2657 -292.832
Modelo BYM2 -2481.076 -2287.657 -783.0862 -142.503

Abaixo temos as conclusões em termos da prevalência de anomalias. Ela não é significativa, com uma estimativa de 0.001 (erro padrão de 0.003). Seu intervalo de confiança de 95% vai de -0.004 até 0.006. Como esse intervalo contém o valor 0 temos confiança pra dizer que tal efeito não é significativo. Ao lado da densidade temos o mapa do efeito espacial obtido com o modelo BYM2. Vemos ali quais regiões tem um efeito espacial mais forte, mais fraco, e neutro.

mean sd 0.025quant 0.5quant 0.975quant mode kld
(Intercept) 2.792 0.078 2.639 2.792 2.945 2.792 0
a_sih 0.001 0.003 -0.004 0.001 0.006 0.001 0

SIA, Período 2008 : 2018


Todos os mapas ficaram praticamente idênticos. O fato do modelo sem efeito espacial ter gerado um mapa muito similar ao das prevalências de neoplasias indica uma fortíssima relação/associação com as prevalências de anomalias, em termos de atendimentos ambulatoriais. Os mapas não mudaram quando inserimos o efeito/correlação espacial, indicando que talvez essa associação seja explicada pelo padrão espacial. Quando olhamos, abaixo, para as medidas resumo dos modelos, vemos que os modelos CAR próprio e BYM são os melhores. Ficamos com o BYM.

Model DIC WAIC CPO MLIK
Modelo Gaussiano IID 2788.433 2792.052 1346.6054 -1412.762
Modelo ICAR -1768.780 -1959.518 -611.0359 -1520.280
Modelo CAR Próprio -2317.394 -2362.867 -823.5727 -1233.929
Modelo BYM -2283.613 -2349.611 -817.5861 -1151.334
Modelo BYM2 -1909.755 -2063.598 -673.0294 -1010.921

Aparentemente um modelo com efeito de anomalia e correlação espacial é redundante, com os dois termos explicando a mesma variabilidade de neoplasias. Em outras palavras, com o modelo BYM temos um forte efeito espacial e um efeito nulo (mas com uma grande variabilidade) da prevalência de anomalias.

mean sd 0.025quant 0.5quant 0.975quant mode kld
(Intercept) 22.273 0.273 21.737 22.273 22.809 22.273 0
a_sia -0.004 0.079 -0.159 -0.004 0.150 -0.004 0

anomalia_neoplasia_agrotoxico_14a18


Temos aqui três grupos de agrotóxicos disponíveis: g27, g07, e g04. Com os mapas abaixo podemos ver que eles diferem na escala, mas que espacialmente e em termos de intensidade parecem ser extremamente redundantes (a mesma coisa).

Pra confirmar calculamos a correlação (linear de Pearson) entre eles.

          g27       g07       g04
g27 1.0000000 0.9990698 0.9930429
g07 0.9990698 1.0000000 0.9935692
g04 0.9930429 0.9935692 1.0000000

Conclusão: eles são extremamentes redundantes e colineares.

Consequência: não faz sentido usar as três na modelagem, temos que escolher uma.

Abaixo temos os gráficos das prevalências de anomalias versus as prevalências de neoplasias, com as cores dos pontos indicando o valor correspondente no grupo de agrotóxicos. Novamente, vemos que não existe diferença entre esses grupos de agrotóxicos.

Para decidirmos qual usar, ajustamos um modelo BYM com o efeito das anomalias e o efeito dos três grupos de agrotóxicos, os efeitos são apresentandos abaixo.

Tanto no SIH quanto no SIA, nenhum dos três apresenta um efeito significativo. Contudo, dos três, o mais distante de zero é o g07, em ambos. Então ficamos com ele.

O próximo passo é ver sua forma funcional em relação as prevalências de anomalia.

Com os gráficos de dispersão abaixo vemos que não existe uma forte relação. Os coeficientes de correlação que são significativos, o são simplesmente pelo fato de termos pouquíssimos municípios com g07 > 300. São esses poucos municípios que acabam impactando a tendência linear (em nenhum gráfico vemos uma possível tendência quadrática ou de maior ordem).

Sendo assim, vamos considerar três possíveis efeitos para tentar entender as prevalências de neoplasias: as prevalências de anomalias, os agrotóxicos g07, e sua interação simples.

SIH, Período 2014:2018


Aqui vemos que nenhum modelo ajusta/captura bem o padrão espacial. Abaixo vemos cada um na sua escala própria, ainda assim todos estão ruins.

              mean    sd 0.025quant 0.5quant 0.975quant   mode kld
(Intercept)  3.228 0.622      2.006    3.228      4.449  3.228   0
ag_sih       0.013 0.017     -0.021    0.013      0.047  0.013   0
g07         -0.002 0.003     -0.008   -0.002      0.005 -0.002   0
ag_sih:g07   0.000 0.000      0.000    0.000      0.000  0.000   0

Solução: aplicar uma transformação na resposta (prevalências de neoplasia). Dado que temos prevalências zero, a transformação escolhida é a raiz quadrada (sqrt).

Abaixo vemos como os resultados melhoraram.

Model DIC WAIC CPO MLIK
Modelo Gaussiano IID 1202.807 1207.552 626.3343 -674.164
Modelo ICAR 1153.009 1157.387 583.5436 -929.231
Modelo CAR Próprio 1147.205 1153.525 584.1582 -643.811
Modelo BYM -2301.718 -2361.461 -823.1838 -558.612
Modelo BYM2 -2286.076 -2369.662 -827.4003 -407.432

Ficamos com o modelo BYM2.

Abaixo temos os efeitos dos parâmetros.

mean sd 0.025quant 0.5quant 0.975quant mode kld
(Intercept) 1.540 0.179 1.189 1.540 1.891 1.540 0
ag_sih 0.001 0.005 -0.009 0.001 0.010 0.001 0
g07 0.000 0.001 -0.001 0.000 0.002 0.000 0
ag_sih:g07 0.000 0.000 0.000 0.000 0.000 0.000 0

Como já previsto nos gráficos de análise descritiva, nada é significativo.

A seguir temos o mapa do efeito espacial (super significativo, capturando todo o padrão de neoplasias).

SIA, Período 2014:2018


Em termos de atendimentos ambulatoriais (SIA) vemos bons resultados com todos os modelos, exceção apenas para o modelo BYM.

Model DIC WAIC CPO MLIK
Modelo Gaussiano IID -1831.518 -2001.016 -631.0240 -1507.368
Modelo ICAR -1792.485 -1989.735 -626.7268 -1666.290
Modelo CAR Próprio -2325.581 -2556.485 -919.8319 -1380.283
Modelo BYM 2937.143 2967.539 1388.7710 -1428.475
Modelo BYM2 -1399.997 -1780.463 -535.0245 -1189.003

Ficamos com o modelo CAR Próprio.

Abaixo temos as distribuições dos seus efeitos.

              mean    sd 0.025quant 0.5quant 0.975quant   mode kld
(Intercept) 21.103 4.808     11.472   21.084     30.858 21.055   0
ag_sia       0.158 0.035      0.090    0.158      0.226  0.158   0
g07          0.001 0.004     -0.007    0.001      0.009  0.001   0
ag_sia:g07   0.000 0.000      0.000    0.000      0.001  0.000   0

Vemos um efeito positivo e significativo (porém pequeno) da prevalência de anomalias na prevalência de neoplasias. Não temos efeito significativo dos agrotóxicos g07 e nem intereção anomalia:g07.

Abaixo temos o efeito espacial predito do modelo CAR Próprio.

References


The main R (R Core Team, 2021) packages used in this analysis were: dplyr (Wickham et al., 2021), tidyr (Wickham, 2021), stringr (Wickham, 2019), purrr (Henry and Wickham, 2020), rlang (Henry and Wickham, 2021), ggplot2 (Wickham, 2016), geobr (Pereira and Gancalves, 2021), and INLA (Rue et al., 2009; Lindgren and Rue, 2015; Bakka et al., 2018),

R Core Team (2021). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL https://www.R-project.org/

Wickham, H., François, R., Henry, L., Müller, K. (2021). dplyr: A Grammar of Data Manipulation. R package version 1.0.7. https://CRAN.R-project.org/package=dplyr

Wickham, H. (2021). tidyr: Tidy Messy Data. R package version 1.1.3. https://CRAN.R-project.org/package=tidyr

Wickham, H. (2019). stringr: Simple, Consistent Wrappers for Common String Operations. R package version 1.4.0. https://CRAN.R-project.org/package=stringr

Henry, L., Wickham, H. (2020). purrr: Functional Programming Tools. R package version 0.3.4. https://CRAN.R-project.org/package=purrr

Henry, L., Wickham, H. (2021). rlang: Functions for Base Types and Core R and ‘Tidyverse’ Features. R package version 0.4.11. https://CRAN.R-project.org/package=rlang

Wickham, H. (2016). ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York

Pereira, R. H. M., Goncalves, C. N. (2021). geobr: Download Official Spatial Data Sets of Brazil. R package version 1.6.4. https://CRAN.R-project.org/package=geobr

Rue, H., Martino, S., Chopin, N. (2009), Approximate Bayesian Inference for Latent Gaussian Models Using Integrated Nested Laplace Approximations (with discussion), Journal of the Royal Statistical Society B, 71, 319-392.

Lindgren, F., Rue, H. (2015). Bayesian Spatial Modelling with R-INLA. Journal of Statistical Software, 63(19), 1-25. URL http://www.jstatsoft.org/v63/i19/.

Bakka, H., Rue, H., Fuglstad, G. A., Riebler, A., Bolin, D., Krainski, E., Simpson, D., Lindgren, F. (2018) Spatial modelling with R-INLA: A review. Invited extended review, arxiv:1802.06350.